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摘 要 : 


[ 目的 /意义 ] 学术 文献 下 载 行为 是 科研 人 员 文献 检 索 行为 的 重要 一 环 ,对 其 预测 的 研究 有 助 于 深度 理解 科研 人 员 


检索 行为 ,为 学 术 资源 检索 平台 优化 检索 结果 、 重 构 排 序 提供 依据 ,从 而 提升 检索 系统 的 服务 质量 。[ 方 法 /过 程 ] 
构建 用 户 学 术 文献 下 载 行为 的 多 维特 征 体 系 , 在 机 器 学 习 算 法 基础 上 构造 基于 查询 相关 性 和 基于 用 户 行为 的 子 
分 类 器 ,并 采取 加 权 策 略 构建 学 术 文 献 下 载 行为 预测 混合 模型 。[ 结果 /结论 ] 实验 结果 表明 ,随机 森林 算法 在 两 
种 分 类 器 上 均 取 得 最 佳 性 能 ; 相 较 于 仅 基于 查询 相关 性 特征 训练 的 模型 ,混合 模型 的 准确 率 提 高 了 2.39% ,Fl 值 


提升 了 1.3% 。 在 混合 模型 中 ,基于 用 户 行为 的 子 


“发 表 时 间 ” 特 征 的 贡献 度 较 大 。 
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混合 模型 


分 类 器 拥有 更 高 权重 ;“ 下 载 量 ” 


“是 否 采 用 专业 /高 级 检索 ”和 


机 渠道 ,具有 资源 丰富 ,更 新 及 时 、 获 取 便捷 等 优势。 
处 图 ,学 术 资源 的 迅速 增长 也 带 来 了 信息 过 载 的 问题 ， 
导 锚 检索 成 本 增加 ,占用 科研 人 员 大 量 的 时 间 和 精力 。 
鲜 计 检 索 结果 重 构 排序 以 优化 检索 功能 ,对 于 提升 学 
术 资 源 检索 平台 服务 的 满意 度 、 满 足 科 研 用 户 学 术 信 
鹿 寿 求 至 关 重 要 。 

它 学 术 文献 下 载 是 科研 用 户 学 术 检索 的 后 续 流程 ， 
理解 学 术 文献 下 载 行为 能 够 为 学 术 检 索 结果 排序 提供 
依据 。 当 前 学 术 文献 下 载 研究 主要 集中 在 文献 被 引 量 
和 下 载 量 的 相关 性 上 " ,倾向 于 将 下 载 量 作为 文献 


的 信息 需求 .检索 目标 与 检索 动机 ” ,因此 探究 单 次 
检索 中 学 术 文献 下 载 行为 的 影响 因素 ,对 于 明晰 用 户 
检索 意图 .优化 学 术 文 献 检 索 结 果 排 序 .提高 科研 人 员 
检索 效率 和 学 术 资 源 的 利用 率 具 有 重要 意义 。 

基于 此 ,笔者 提出 一 种 融合 多 维特 征 的 学 术 文献 
下 载 行为 预测 模型 。 在 构建 用 户 学 术 文献 下 载 行为 相 
关 特 征 体系 的 基础 上 ,采用 机 器 学 习 算法 建立 基于 查 
询 相关 性 和 基于 用 户 行为 的 子 分 类 模型 ,并 采取 加 权 
策略 构建 混合 分 类 模型 用 于 预测 用 户 的 学 术 文献 下 载 
行为 。 


1 相关 研究 


计量 评价 指标 ,用 以 弥补 文献 被 引 量 的 时 兆 性 问题 。 
部 分 学 者 从 知识 产权 的 角度 对 过 量 下 载 行为 的 特 
点 ”检测 方法 ”进行 探析 ,并 提出 相应 对 策 ” 。 但 
目前 关于 学 术 文 献 下 载 行为 预测 的 研究 较 少 , 且 仅 停 
留 在 学 术 文 献 下 载 量 预 测 层 面 中 ,忽视 了 科研 用 户 在 
学 术 检 索 时 的 信息 交互 行为 所 反映 的 用 户 偏 好 '” ,未 
能 从 更 细 粒 度 的 角度 将 科研 用 户 的 单 次 检索 信息 结合 
到 下 载 预 测 中 。 而 检索 信息 可 以 很 大 程度 上 反映 用 户 


学 术 检 索 能 够 实现 对 学 术 信 息 的 过 滤 和 簿 选 , 满 
足 学 者 的 多 元 化 需求 和 个 性 化 兴趣 。 目 前 ,学 者 主要 
从 查询 意图 .查询 式 特征 检索 策略 等 方面 研究 学 术 检 
索 行 为 。 查 询 意 图 指 用 户 在 检索 过 程 中 可 能 的 潜在 目 
的 ,可 分 为 信息 类 、 导 航 类 和 事务 类 "" 。 基 于 不 同 查 
询 意图 进行 的 检索 能 够 体现 用 户 的 个 性 化 差异 ” 。 
M.，Khabsa 等 ”根据 学 术 检 索 行为 的 特点 ,将 学 术 用 
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户 的 查询 意图 分 类 为 导航 类 和 信息 类 ,其 中 导航 类 碍 
询 意 图 指 用 户 的 目标 为 特定 学 术 文 献 , 信 息 类 查询 意 
图 指 用 户 希 望 线 取 某 一 主题 的 相关 信息 。 作 为 查 
询 式 的 基本 特征 ,查询 式 的 构造 能 揭示 用 户 最 直接 的 
需求 ”。X. Li 等 "通过 分 析 查 询 式 内 容 发 现 学 术 检 
索 中 多 为 实体 检索 ,这些 实 体能 够 反映 用 户 感 兴趣 的 
主题 。 根 据 人 类 信息 行为 理论 … ,学 术 检 索 行为 可 以 
归纳 为 研究 探索 性 、 任 务 导 向 性 和 技巧 依赖 性 3 种 类 
型 。 不 同类 型 的 学 术 检 索 行为 对 应 的 检索 策略 有 所 不 
同 "” ,如 果 用 户 希 望 了 解 领域 内 的 发 展 态势 , 则 需要 
获取 大 量 文献 ,检索 行为 属于 研究 探索 性 ,关键 词 检 
索 .期 刊 检索 等 为 首选 的 检索 策略 ;而 当 用 户 有 较为 明 
确 的 学 术 检索 目标 时 ,检索 行为 具有 任务 导向 性 ,倾向 
也 使 用 精确 匹配 模式 。 


己 学 术 文献 下 载 是 学 术 检索 的 后 续 环节 ,学 者 开展 


| 


研究 时 通过 检索 文献 寻找 领域 中 与 当前 工作 相关 的 学 


术 防 息 ,并 从 检索 结果 中 下 载 符 合 期 望 的 文献 。 对 学 
术 观 献 下载 的 研究 一 方面 可 以 弥补 被 引 频次 无 法 反映 
隐形 引用 文献 的 学 术 价值 的 缺点 5” , 即 考虑 被 阅读 过 
GR 被 引用 的 文献 的 贡献 ; 另 一 方面 ,由 于 论文 从 完成 
到 被 学 者 引用 ,需要 经 历 出 版 机 构 的 评审 .读者 的 理解 
等 葬 又 ,导致 引文 分 析 存在 一 定 的 延 时 ” 。 而 对 文献 
玉 误 的 研究 能 够 缓解 这 种 灌 后 性 ,可 以 较 快 反映 论 
文 的 价值 汪 。 相 比 于 引文 数据 ,下 载 量 更 具 测评 区 分 
雇 敏 感性 ,在 统计 学 上 的 数值 特征 与 引文 有 所 不 
司 二 。 因 此 对 于 文献 下 载 的 研究 ,可 以 作为 引文 行为 
的 久 充 ,为 文献 学 术 影响 力 的 研究 提供 新 的 视角 。 

“OO 作为 文献 被 使 用 的 一 个 指标 ,历史 下 载 量 能 及 时 
反映 论文 被 使 用 的 情况 ,在 一 定 程度 上 早 于 被 引发 现 
论文 的 引用 价值 ”3 。 虽 然 单 篇 开放 获取 论文 的 下 载 
频次 与 被 引 频次 之 间 的 相关 性 并 不 明显 25 ,但 是 《 国 
际会 计 信息 系统 ) 期 刊 中 论文 被 引用 次 数 与 论文 进入 
下 载 量 前 25 位 的 次 数 却 显著 相关 %” ,说 明文 献 下 载 
频次 与 引用 频次 之 间 的 关系 在 单 篇 论文 层次 和 期 刊 层 


术 检 索 中 用 户 下 载 行为 决策 的 探究 。 因 此 ,笔者 从 查 
询 相 关 性 和 用 户 行为 两 种 视角 出 发 ,构建 学 术 检 索 中 
的 用 户 文献 下 载 行为 预测 模型 。 


2 融合 多 维特 征 的 学 术 文 献 下 载 行为 预 
测 模型 
2.1 问题 定义 

笔者 将 单 次 学 术 检 索 中 的 文献 下 载 行为 预测 定义 
为 一 个 二 分 类 问题 :给 定 用 户 u 及 文献 检索 结果 D = 
to dd ,d,| (na 为 检索 结果 文献 总 数 ) ,对 于 
D 中 的 任 一 文献 d;, 预测 用 户 u 是 否 会 进行 下 载 。 预 
测 标 签 y,e 10,11 ,其 中 1 代表 下 载 ,0 代表 未 下 载 。 
2.2 学 术 文 献 下 载 行为 预测 模型 框架 

学 术 文 献 下 载 行为 本 质 上 受到 用 户 需 求 的 驱动 ， 
其 背后 的 基本 假设 是 与 用 户 需求 越 匹配 的 学 术 文 献 ， 
越 可 能 被 下 载 。 基 于 以 往 研究 ,笔者 认为 这 种 需求 的 
匹配 程度 体现 在 两 个 方面 :一 是 语义 层面 的 检索 式 与 
学 术 文 献 的 相似 性 ,二 是 用 户 行为 反映 出 的 用 户 需 求 
与 文献 之 间 的 相似 关系 。 据 此 ,首先 针对 这 两 类 信息 ， 
分 别 构建 基于 查询 相关 性 的 子 分 类 器 和 基于 用 户 行为 
的 子 分 类 噩 ,然后 进一步 整合 这 两 个 子 分 类 融 提 出 混 
合 分 类 器 。 基 于 查询 相关 性 的 子 分 类 器 主要 对 文献 特 
征 和 用 户 查 询 式 特征 进行 学 习 , 其 目的 是 通过 文献 与 
用 户 检索 需求 的 匹配 程度 来 预测 下 载 行 为 ;基于 用 户 
行为 的 子 分 类 器 借助 item2vec 模型 光 从 用 户 行为 记 
录 中 提取 文献 谍 入 表示 , 旨 在 挖掘 文献 之 间 的 潜在 关 
联 ;混合 分 类 器 对 上 述 两 个 子 分 类 器 的 预测 结果 进行 
加 权 , 以 全 面 捕捉 学 术 文 献 下 载 行为 的 影响 因素 ,提升 
模型 效果 。 
2.2.1 基于 查询 相关 性 的 子 分 类 模型 

查询 相关 性 反映 检索 结果 和 用 户 需 求 的 匹配 程 
度 ,直接 影响 用 户 的 浏览 下 载 ,利用 等 后 续 行 为 ,是 一 
种 重要 的 检索 结果 排序 依据 ”” 。 查 询 相关 性 的 评 


次 的 相关 性 存在 差异 。 因 此 ,利用 论文 发 表 一 段 时 间 
之 后 的 下 载 量 可 以 对 论文 和 期 刊 未 来 的 引用 量 进行 较 
为 准确 的 预测 。 此 外 ,过 量 下 载 成 为 高 校 图 书馆 普 
遍 面临 的 问题 , 徐 文 贤 等 “通过 调查 国内 外 的 过 量 下 
载 案例 ,发 现 科研 学 术 和 需求 和 商业 利益 是 造成 过 量 下 
载 的 主要 原因 。 


佑 涉及 文献 和 用 户 查 询 意 图 两 类 特征 。 

文献 特征 主要 从 质量 和 内 容 两 个 层面 衡量 文献 能 
否 满足 用 户 需 求 。 一 方面 ,信息 质量 显著 影响 用 户 对 
着 息 的 有 用 性 认 知 ,进而 影响 其 态度 和 行为 决策 ”。 
反映 在 学 术 信息 搜寻 场景 中 ,高 质量 的 学 术 文 献 能 提 
升 用户 的 感知 有 用 性 ,进而 促使 下 载 行为 的 产生 。 常 


综 上 所 述 , 现 有 研究 大 多 通过 分 析 下 载 量 与 引用 
量 的 关系 以 评估 文献 的 学 术 影响 力 ,或 者 分 析 过 量 下 
载 现 象 以 规范 对 学 术 资 源 检索 平台 的 使 用 ,缺乏 对 学 


用 的 文献 质量 衡量 指标 包括 被 引 量 、 下 载 量 、 来 源 期 刊 
和 发 表 时 间 ””: 。 其 中 ,被 引 量 和 下 载 量 能 用 于 衡量 
文献 的 影响 力 ,而 来 源 期 刊 .发表 时 间 则 分 别 反映 了 文 
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献 的 可 靠 性 和 时 效 性 。 另 一 方面 ,文献 内 容 满足 用 户 
信息 需求 的 程度 也 影响 着 用 户 的 下 载 行为 决策 ,可 通 
过 计算 文献 内 容 与 当前 查询 式 的 匹配 度 来 衡量 。 
查询 意图 反映 了 用 户 的 查询 目标 和 动机 ,影响 着 
用 户 后 续 的 浏览 .下 载 等 行为 选择 ”9 。 例 如 ,在 学 术 
信息 搜寻 情境 下 ,用 户 的 目标 既 有 可 能 是 获取 特定 
文献 ( 即 导 航 类 查询 意图 ) ,也 有 可 能 是 了 解 某 一 主 
题 .机 构 或 作者 的 发 文 数 量 等 信息 ( 即 信息 类 查询 意 
图 ) ,前 者 比 后 者 更 容易 产生 文献 下 载 行为 。 鉴 于 查 
询 意图 较为 抽象 ,难以 直接 识别 ,部 分 文献 通过 查询 
式 构 造 特征 来 间接 反映 。 参 考 已 有 文献 , 笔 
者 选取 查询 式 长 度 、 是 否 为 题名 .检索 字段 .是 否 采 
用 精确 匹配 .是 否 采用 专业 /高 级 检索 5 个 查询 式 特 
笨 二 
| 达 表 1 总 结 了 基于 查询 相关 性 的 子 分 类 模型 中 的 特 
生体 系 ,具体 如 下 : 
LO 未 1 基于 查询 相关 性 的 子 分 类 模型 的 特征 体系 


Su 具体 特征 描述 
区 机 特 征 。 来 源 期 和 是 否 来 自 权威 期 乔 
发 表 时 间 = 
被 引 量 - 
下 载 量 - 
文献 匹配 度 文献 与 用 户 信息 需求 的 匹配 程度 
| 讽 查 询 式 。 查询 式 长 度 查询 式 中 的 词语 数量 
1 是 否 为 题名 查询 式 是 否 为 文献 的 完整 题名 
检索 字段 查询 式 是 否 包含 题名 .DOI 或 作者 
是 否 采用 精确 匹配 。 ”字段 
是 否 采用 专业 /高 级 检 。 是 否 要 求 检索 词 与 文献 某 一 字段 
索 完全 匹配 
是 否 包含 高 级 检索 或 专业 检索 运 
算 符 


SCOTC content 


SCOTE ) 一 有 
(oe 在 Bb (B 三 [0 ,| ] ) 


其 中 ,scorew 为 总 体 匹 配 度 ,scorewm 为 内 容 匹配 
度 ,B 为 附加 值 。 

(2) 用 户 查询 式 特征 提取 。 查 询 式 长 度 通 过 分 词 
并 计算 词语 个 数 来 获取 ,提交 较 长 查询 的 用 户 通 常 更 
有 可 能 搜索 具体 的 信息 ;是 否 为 题名 的 判断 标准 如 下 : 
若 查询 式 和 文章 题名 的 匹配 词 数 大 于 5, 认为 查询 式 
为 题名 ,否则 判定 为 非 题名 。 如 采用 户 直接 检索 题名 ， 
表明 用 户 更 有 可 能 明确 查找 特定 的 学 术 文献 ;检索 字 
段 特 征 主 要 判断 查询 式 中 是 否 包 含 作者 、DOI 或 题名 
字段 ,包含 上 述 字 段 的 查询 式 更 有 可 能 代表 明确 的 查 
询 意 图 ;精确 匹配 、 高 级 检索 和 专业 检索 通过 正则 表达 
式 进行 识别 ,其 中 包含 精确 匹配 的 查询 式 中 通常 带 有 
精确 匹配 符 ( 引 号 等 ) ;高 级 检索 和 专业 检索 通常 包含 


各 特征 的 提取 方法 如 下 : 

(1) 文 献 特征 提取 。 文 献 元 数据 特征 可 从 文献 车 
录 信息 中 直接 获取 。 其 中 ,来 源 期 刊 特征 主要 判断 文 
献 是 否 来 自 权 威 期 刊 , 即 被 北大 核心 .中 文 社会 科学 引 
文 索 引 (CSSCI)、 中 国 科 技 论文 统计 源 期 刊 (CST- 
PCD ) .工程 索引 (EI) 科学 引文 索引 (SCI) 等 收录 的 期 
刊 。 发 表 时 间 特 征 为 文献 发 表 年 份 减 去 当前 浏览 或 下 
载 年 份 。 由 于 文献 被 引 量 和 下 载 量 的 分 布 具有 极 差 
大 \ 不 均匀 的 特点 ,因此 笔者 采用 等 频 分 箱 进 行 处 理 ， 
使 每 个 区 间 内 包含 大 致 相等 的 样本 数量 。 对 于 被 引 
量 , 分 箱 后 包含 3 个 区 间 : 低 被 引 量 区 间 为 [0,1 | .中 被 
引 量 区 间 为 (1,5 | 、 高 被 引 量 区 间 为 (5, + % )。 下 载 
量 数 据 分 箱 后 也 包含 3 个 区 间 : 低 下 载 量 区 间 [0,27]、 
中 下 载 量 区 间 (27 ,95 ] \ 高 下 载 量 区 间 (95, + % )。 

在 计算 文献 匹配 度 特 征 时 ,考虑 到 一 个 查询 式 中 
可 能 存在 多 个 检索 字段 ,因此 分 成 如 下 两 部 分 进行 : 
中 对 于 内 容 相 关 的 检索 字段 (如 主题 ,题名 等 ) ,采用 
关键 词 匹配 法 计算 检索 词 与 文献 内 容 的 匹配 程度 。 具 
体 做 法 为 :对 查询 式 文献 标题 和 摘要 进行 分 词 ,之 后 
计算 出 现在 文献 标题 .摘要 和 关键 词 中 的 检索 词 个 数 
占 检索 词 总 数 的 比例 ,以 此 作为 匹配 度 。 例 如 :查询 式 
包含 3 个 词汇 ,其 中 2 个 出 现在 文献 的 标题 .关键 词 或 
摘要 中 , 则 匹配 度 为 0.66。@ 对 于 元 数据 相关 的 检索 
字段 (如 作者 、 期 刊 等 ) , 若 查询 式 中 存在 与 文献 完全 
匹配 的 检索 字段 , 则 在 内 容 匹配 度 上 添加 一 个 0 到 1 
之 间 的 附加 值 ,具体 取 值 作为 超 参数 ,在 模型 训练 时 进 
行 调 优 。 公 式 表示 如 下 : 


不 存在 相 匹 配 的 元 数据 字段 
存在 相 匹配 的 元 数据 字段 


逻辑 运算 符 “and”or”not”“*”“+”“*” 或 限定 检索 
顺序 运算 符 “(”。 通 常 不 同 的 检索 策略 能 在 一 定 程度 
上 反映 用 户 的 意图 、 偏 好 及 信息 需求 类 型 。 
2.2.2 基于 用 户 行为 的 子 分 类 模型 

推荐 领域 相关 研究 指出 ,用 户 浏览 或 购买 商品 的 
行为 序列 中 蕴含 着 商品 的 相似 性 信息 。 基 于 用 户 行为 
序列 训练 的 商品 从 入 表示 能 够 将 原始 的 高 维 稀 疏 数据 
映射 到 低 维 的 特征 空间 ,使 相似 的 商品 在 空间 距离 的 
度量 上 相近 ,从 而 建 模 商品 间 的 潜在 联系 ,提升 推荐 效 
果 “-”。 笔 者 借鉴 上 述 思 路 ,基于 用 户 与 文献 的 交互 
行为 记录 ,训练 文献 的 低 维 艇 入 表示 作为 子 分 类 模型 
的 特征 , 旨 在 捕获 文献 之 间 的 深层 关联 。 
推荐 领域 训练 商品 能 人 表示 的 重要 思路 之 一 是 借 


公式 (1) 


114 


ChinaXiv 合 作 期 刊 


， 等 . 融合 多 维特 征 的 学 术 文 献 下 载 行为 预测 研究 [J]. 图 书 情报 工作 ,2021 ,65(12) :112 -121. 


鉴 自 然 语言 处 理 中 的 词 向 量 表示 模型 word2vecc 。 具 
体 做 法 是 将 商品 视 为 word2vec 模型 中 的 单词 ,将 用 户 
浏览 或 购买 商品 的 集合 视 为 word2vec 模型 中 的 单词 序 
列 (句子 ) ,将 出 现在 同一 个 集合 的 商品 对 视 为 正 样 
本 ,利用 带 负 采 样 的 Skip-gram 模型 (Skip-gram with 
Negative Sampling，SGNS ) 学 习 商 品 的 低 维 般 入 表示 (i- 
tem2vec) 。 笔 者 将 文献 视 为 单词 ,将 每 个 用 户 在 一 定 
时 间 眉 内 浏览 的 文献 集合 视 为 一 个 句子 。 具 体 而 言 ， 
用 article_id 字段 标识 篇 文献 , 则 某 个 用 户 的 所 有 文 
献 浏览 记录 可 表示 为 : 

user, = [ article 让 ,article 这 ,article_id, ] 

公式 (2) 

其 中 ,i 表示 第 i 个 用 户 ,m 表示 该 用 户 浏览 的 文 
而 数量 。 
| 之 用 于 训练 tem2vee 模型 的 数据 表示 为: 


其 中 ,n 代表 用 户 数 。 

将 上 述 的 用 户 浏览 文献 集合 输入 SGNS 模型 ,学 
习 文 献 的 低 维 钥 入 表示: 

item_embedding = SGNS (irain_list) 公式 (4) 

之 后 将 得 到 的 文献 嵌入 表 示 输 入 分 类 器 ,输出 子 
分 类 模型 的 预测 结 
2.2.3 混合 分 类 模型 

混合 分 类 模型 对 两 个 子 分 类 模型 预测 的 下 载 /未 
下 载 概率 进行 加 权 , 得 到 最 终 的 预测 结果 。 权 重 系数 
在 模型 调 优 时 确定 。 

综 上 ,笔者 提出 的 学 术 文 献 下 载 行为 预测 模型 整 
体 框架 如 图 1 所 示 , 由 以 上 3 个 分 类 器 组 合 构 成 。 对 
于 输入 的 用 户 检 索 和 浏览 行为 记录 ,该 模型 处 理 流程 
如 下 :首先 ,采用 机 器 学 习 算 法 分 别 构建 基于 查询 相关 
性 和 基于 用 户 行为 的 子 分 类 器 ;其 次 ,基于 两 个 子 分 类 


= train_Jist = [ user, ,user, ,*** ,User,,*** , user, | 器 构建 混合 分 类 器 ;最 后 ,根据 混合 分 类 器 的 输出 结果 
pa 公式 (3) | 预测 用 户 是 否 会 下 载 某 篇 文献 。 
© ------------------ ---: 
可 输入 节点 隐藏 节点 输出 节点 
3 2 
CO) 
于 分 类 器 
CN | 
©O 
CN | 
本 图 
> 
mm 户 行为 混合 分 类 器 F 载 /未 下 载 
DC | | 
(5 | 
S 来 源 期 刊 查询 式 长 度 I 
rm 发 表 时 间 是 否 为 题名 | 
本 被 引 量 险 索 字段 | 
O 下 载 量 是 否 采 用 精确 匹配 | | 中 子 分 类 器 
文献 匹配 度 。 | | 是 否 采用 专业 /高 级 检索 
| 
文献 特征 户 查询 式 特征 
| 
基于 查询 相关 性 的 子 分 类 器 


1 学 术 文 献 下 载 行为 预测 混合 模型 框架 


3 ”实验 与 结果 分 析 


3.1 实验 设计 

实验 过 程 整体 框架 见 图 2。 

分 为 以 下 环节 : 

(1) 数 据 字 段 扩充 :为 满足 研究 需求 ,编写 爬虫 采 
集 文献 和 期 刊 相关 字段 的 信息 ,对 源 数据 进行 扩充 。 

(2) 数 据 预 处 理 : 对 扩充 后 的 数据 集 进 行 数据 关 
联 删除 无 效 数据 等 预 处 理 , 得 到 可 用 于 实验 的 数据 ， 
之 后 按照 8:2 的 比例 划分 为 训练 集 和 测试 集 。 


(3 ) 特征 抽取 :一 方面 ,按照 2.2.1 中 的 方法 对 训 
练 集中 所 有 数据 进行 文献 特征 和 用 户 查 询 式 特征 的 抽 
取 ; 另 一 方面 ,按照 2.2.2 所 示 方 法 ,使 用 数据 集中 非 
机 构 用 户 的 浏览 行为 数据 训练 item2vec 模型 ,提取 基 
于 用 户 浏览 行为 记录 的 文献 通 入 表示 。 

(4) 模 型 训练 :使 用 环节 3 中 的 训练 数据 ,分 别 训 
练 基 于 查询 相关 性 和 基于 用 户 行 为 的 子 分 类 器 。 目 
前 ,在 分 类 问题 中 较为 成 熟 的 机 器 学 习 算法 有 逻辑 其 
蒂 回 归 (Logistic Regression , LR )、 决 策 树 (Decision 
Tree,DT) 朴素 贝 叶 斯 (Naive Bayes,NB) 文 持 向 量 机 
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es 
文献 相关 信息 检索 -浏览 行 
字段 扩充 为 数据 拼 拉 
户 检索 | | 用 户 浏览 | | 用 户 下 载 浏览 -下载 行 
a | | 览 -下 载 
行为 日 志 | | 行为 日 行为 日 i 为 数据 拼接 
字段 扩充 有 
去 除 重要 字段 
为 空 记录 
源 数 据 【数据 字段 扩 充 。 。 / 数据 预 处 理 
= 文献 特征 及 
概率 分 布 | ee 查询 符 征 | 全 站 所 
Ol 一 加 权 融 合 一 
a 基于 用 户 行为 Esc > 
的 子 分 类 器 (item2vec) 数据 


模型 预测 


port Vector Machine ,SVM ) 、 多 层 感 知 机 (Multi- 
Layer Perceptron ,MLP) 以 及 随机 森林 (Random Forest， 
RE 笔者 使 用 上 述 分 类 算法 进行 实验 ,选用 性 能 最 
人 法 构建 最 终 的 混合 分 类 器 。 

@(5 ) 模 型 预测 与 融合 :使 用 同样 的 方式 提取 测试 
组 损 的 特征 ,将 测试 集中 抽取 的 文献 特征 和 用 户 


> 
© 
CS 0 
-三 其 中 ,a 为 模型 融合 权重 系数 。 
3 向 数据 集 与 预 处 理 

本 文 研究 数据 来 自 “ 慧 源 共 享 " 全 国 高 校 开放 数 
据 创新 研究 大 赛 组 委 会 提供 的 万 方 数据 知识 服务 平台 


模型 训练 


fas + (1 一 a) * 忆 ,i 为 非 机 构 用 户 行为 产生 的 文献 数据 记录 
"| 严 , 计 为 机 构 用 户 行为 产生 的 文献 数据 记录 


\ 


特征 抽取 


2 


查询 式 特征 输入 到 基于 查询 相关 性 的 子 分 类 口中 得 
到 预测 结果 产 , 将 测试 集中 提取 的 文献 能 入 表示 输 
入 基于 用 户 行为 的 子 分 类 器 中 得 到 预测 结果 p; ,最 
后 将 两 个 预测 结果 进行 加 权 融 合 ,构建 混合 分 类 器 ， 
表示 为 : 


测试 集 


2 实验 流程 


公式 (5 ) 


用 户 在 进行 学 术 文献 下 载 时 通常 有 两 种 行为 模 
式 , 如 图 3 所 示 。 一 种 是 在 浏览 文献 摘要 等 详细 信息 
之 后 决定 是 否 下 载 , 即 检索 -浏览 -下载 / 未 下 载 ; 男 


期 刊 文献 用 户 行为 日 志 数 据 集 ,包括 用 户 检索 行为 日 
志 37 544 670 条 .用 户 浏览 行为 日 志 11 998 421 条 以 
及 用 户 下 载 行 为 日 志 14 025 159 条 ,时 间 跨 度 为 2019 
年 12 月 1 日 至 2020 年 1 月 31 日 ”。 由 于 源 数据 包 
含 的 字段 信息 无 法 满足 研究 需求 ,笔者 对 用 户 浏览 行 
为 日 志 数 据 集 字段 进行 了 扩充 ,具体 做 法 是 使 用 用 户 
浏览 行为 日 志 中 每 条 记录 的 文献 题名 字段 和 文献 作者 
字段 在 万 方 数据 知识 服务 平台 进行 高 级 检索 , 抓 取 检 
索 结 果 排 名 首位 的 论文 相关 信息 。 扩 充 字 段 包 括 两 个 
方面 :文献 元 数据 和 期 刊 元 数据 。 文 献 元 数据 字段 包 
括 摘要 发表 年 份 、 被 下 载 数 以 及 被 引 数 ;期 刊 元 数据 
字段 包括 来 源 期 刊 ID、 期 刊 级 别 、 期 刊 名 称 、 期 刊 总 下 
载 量 .期 刊 总 被 引 量 以 及 期 刊 影响 因子 。 


种 则 是 直接 通过 检索 列表 中 的 粗略 信息 判断 文献 是 
否 满足 自己 的 需求 , 即 检索 -下 载 /未 下 载 。 用 于 本 文 
实验 的 数据 为 用 户 检 索 后 进行 浏览 的 数据 记录 , 正 样 
本 为 用 户 检索 -浏览 - 下 载 数 据 , 负 样 本 为 用 户 检索 
-浏览 -未 下 载 数据 。 

用 户 行为 日 志 源 数据 集 存在 的 问题 是 ,用 户 的 检 
索 浏览、 下 载 行为 记录 分 表 保 在, 上 且 对 于 机 构 用 户 数 
据 无 法 定位 到 个 人 , 若 只 对 非 机 构 用 户 数据 进行 分 析 ， 
则 会 造成 巨大 的 数据 资源 浪费 。 为 了 将 机 构 用 户 的 行 
为 记录 也 纳入 到 实验 数据 中 ,笔者 采用 如 下 方法 对 用 
户 检索 浏览、 下载 行 为 日 志 进 行 拼接 :中 基于 同一 用 
户 (user_id 字段 值 相同 ) 对 同一 文献 (artiele_id 字段 值 
相同 ) 的 浏览 时 间 与 检索 时 间 的 最 小 时 间 差 将 检索 行 
为 与 浏览 行为 记录 进行 拼接 ;@ 对 检索 词 以 及 标题 关 


116 


ChinaXiv 合 作 期 刊 


谢 豪 , 吴 雪 华 , 陈 欧 , 等 . 融合 多 维特 征 的 学 术 文献 下 载 行为 预测 研究 [可 . 图 书 情报 工作 ,2021,65(12) :112 - 121. 


文献 1 
文献 2 
© 户 查询 ( 输 / [| 
| 检索 式 ) 四 
文献 n 八 


检索 结果 列表 汀 


3 ”用户 学 术 下 载 行为 模式 
键 词 进行 分 词 去 除 停 用 词 ,使 用 关键 词 共 现 法 判断 检 


行为 且 事 实 上 确实 未 下 载 的 样本 数 ,FP 表示 预测 用 
户 发 生 下 载 行为 但 实际 上 未 发 生 的 样本 数 ,FN 表 
示 预 测 用 户 不 发 生 下 载 行为 但 实际 上 发 生 的 样本 
数 。 
3.4 实验 结果 分 析 

表 3、 表 4 和 表 5 分 别 展示 了 基于 查询 相关 性 的 子 
分 类 器 、 基 于 用 户 行为 的 子 分 类 器 以 及 混合 分 类 絮 的 


索 词 与 检索 文献 的 相关 性 。 具 体 做 法 是 判断 检索 词 的 
分 词 结果 列表 与 标题 关键 词 的 分 词 结果 是 否 存在 共 现 
词 , 若 存在 则 认为 相关 ,否则 认为 不 相关 ,删除 不 相关 
的 杜 据 ;@ 同 样 利 用 同一 用 户 对 同一 文献 的 下 载 时 间 
与 烈 览 时 间 的 最 小 时 间 差 将 浏览 行为 日 志 与 下 载 行为 
上 日志 中 的 记录 进行 拼接 。 去 除 文献 发 表 年 份 及 摘要 为 
鹤 倡 的 数据 后 ,得 到 最 终 用 于 实验 的 数据 2 383 933 
惟有 具 体 如 表 2 所 示 : 

< 十 表 2 预 处 理 后 的 数据 (单位 /条 ) 


PR 1 检索 -浏览 - 检索 -浏览 - 
Ql 人 下 载 数据 未 下 载 数据 局 次 
(VE 移 用 户 数据 438 643 1 486 176 1 924 819 
看 二 网 用 户 数据 84 662 374 452 459 114 
总 数 523 305 1 860 628 2 383 933 


>< 从 表 2 可 以 看 到 ,检索 - 浏览 - 下 载 数据 与 检索 
- 需 览 - 未 下 载 数据 的 总 数 存在 不 平衡 现象 , 比例 大 
约 汶 1:3.5, 因 此 在 训练 基于 查询 相关 性 的 子 分 类 器 
时 6 了 了 保证 数据 集中 两 类 标签 数据 的 平衡 ,笔者 对 检 
索 -浏览 -未 下 载 数据 样本 进行 下 采样 ,从 中 随机 机 
取 与 检索 -浏览 下 载 数据 等 量 的 数据 用 于 实验 。 
3.3 评估 指标 

笔者 选用 准确 率 (accuracy) .召回 率 (recall) ,精确 
度 (precision) 以 及 Fl 值 作为 模型 的 评估 指标 ,计算 公 
式 如 下 : 


TP+TN i, 
= A 
Accuracy = TPHEN+INTEE 公式 (6) 
TP 
Recall = Fp FN 公式 (7) 
Precision = 公式 (8) 


Fl = 2 x Recall x Precision 公式 (9) 


Recall + Precision 
其 中 ,TP 是 模型 预测 用 户 发 生 下 载 行为 且 用 户 
确实 发 生 的 样本 数 ,TN 表示 预测 用 户 不 发 生 下 载 


预测 结 
表 3 ”基于 查询 相关 性 的 子 分 类 器 的 实验 结果 
算法 accuracy recall Precision Fl 
LR 0.629 0.651 0.622 0.636 
DT 0.654 0.765 0.625 0.688 
NB 0.599 0.739 377 0.648 
SVM 0.630 0.665 0.622 0. 638 
MLP 0.659 0.781 0. 626 0. 695 
RF 0.666 0.807 0.628 0.706 


表 4 基于 用 户 行为 的 子 分 类 器 的 实验 结果 


算法 accuracy recall Precision Fl 
LR 0.510 0. 801 0.510 0.622 
DT 0.648 0.672 0.646 0.659 
NB 0.516 0.993 0.510 0.674 
SVM 0.507 0.639 0.510 0.567 
MLP 0.575 0.466 0.602 0.525 
RF 0.657 0.443 0.783 0.566 


accuracy recall Precision Fl 


融合 模型 (基于 RF) 0.689 0.799 0.654 0.719 


从 表 3 和 表 4 的 实验 结果 可 以 看 出 ,对 于 基于 查 
询 相 关 性 和 基于 用 户 行为 的 子 分 类 噩 ,随机 森林 在 各 
个 评价 指标 上 均 取 得 最 佳 性 能 ,因此 笔者 选用 随机 森 
林 算 法 训练 的 分 类 需 进 行 最 终 的 模型 融合 。 值 得 一 提 
的 是 ,在 基于 用 户 行为 的 子 分 类 絮 中 ,随机 森林 的 精确 
度 超 出 性 能 表现 第 二 的 决策 树 模 型 14 个 百分点 ,达到 
78.3% ,但 在 召回 率 上 过 低 ;基于 查询 相关 性 的 子 分 类 
器 则 刚好 相反 。 将 两 种 分 类 器 进行 融合 能 够 起 到 互补 
作用 ,从 而 提升 性 能 , 表 5 的 实验 结果 也 证 明了 混合 4 
类 器 的 准确 率 和 Pl 值 优 于 子 分 类 器 ,其 中 准确 率 相 较 
基于 查询 相关 性 的 子 分 类 器 提升 了 2.3% ,Fl 值 提升 
了 了 工 .3 和 5 
3.5 子 分 类 器 权重 占 比分 析 

为 探究 基于 查询 相关 性 的 子 分 类 器 和 基于 用 户 行 
为 的 子 分 类 器 在 混合 分 类 器 中 的 权重 占 比 ,笔者 采用 
穷 举 法 探索 模型 融合 权重 系数 a 的 最 优 值 ,其 中 oe 
[0,1] , 步 长 为 0.1。 实 验 结果 如 图 4 所 示 。 从 图 4 中 
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可 以 看 出 ,a 值 为 0.3 时 ,模型 准确 率 达 到 最 高 , 随 着 a 
值 的 继续 升 高 ,准确 率 开 始 降低 ;a 值 为 0.4 时 ,模型 
Fl 值 达 到 最 高 ,随后 随 a 值 的 升 高 而 下 降 。 综 合 考虑 
准确 率 和 FI 得 入 到 私 重 冰 a 的 最 优 值 为 0.4, 此 
时 准确 率 相对 峰值 差距 较 小 ,而 Fl 值 达 到 最 优 。 这 表 
明 在 性 能 最 优 的 混合 分 类 模型 中 ,基于 用 户 行为 的 子 
es 占有 更 高 的 权 
重 , 这 可 能 是 因为 基于 用 户 行为 的 子 分 类 器 能 充分 考 
We 的 角度 抽取 文献 
的 内 在 特征 、 学 习 文献 之 间 的 潜在 联系 。 

ga 

0.71 

0 一 二 二 
0.68 

全 


0.63 
让 次 2 103 004 105 0 7 8 


a 值 


ee Acc FI 


图 4 准确 率 、F1 值 随 权重 系数 w 值 的 变化 


标 


.00577v1 


特征 贡献 度 分 析 

寺 征 贡献 度 分 析 能 够 揭示 特征 对 不 同 数据 类 别 的 
引力 ,增强 分 类 模型 的 可 解释 性 ,为 之 后 的 模型 优 
化 提供 参考 。 针对 查询 相关 性 特征 ,笔者 基于 信息 增 
诊 证 算 各 特征 在 学 术 文献 下 载 行为 预测 任务 中 的 贡 贡献 
度 6 酯 果 如 图 5 所 示 : 


由 041 
0.05 | l 
四 国 。 


以 
< Wo 2 ge a Np A a Ey 本 
及 
a 


Q2304 


上 


区 oY 
特征 名 称 
图 $ 特征 贡献 度 分 布 


根据 特征 的 贡献 度 分 布 ,笔者 将 贡献 度 大 于 10% 
的 特征 称 为 高 贡献 度 特征 ,将 贡献 度 低 于 10% 的 特征 
称 为 低 贡 献 度 特征 。 在 高 贡献 度 特征 中 ， 下 载 量 " 作 
为 文献 质量 的 重要 评价 指标 ,对 于 样本 能 否 正确 分 类 
具有 明显 影响 。 如 图 6(a) 所 示 , 在 下 载 量 较 小 时 ,用 
户 浏览 后 未 下 载 的 数据 占 比 较 大 ;在 下 载 量 较 大 时 ,用 


户 浏 览 后 下 载 的 数据 占 比 较 大 ,说 明科 研 人 员 下 载 文 
献 时 ,倾向 于 根据 文献 下 载 量 对 文献 质量 做 出 判断 ,这 
符合 ee 

否 采用 专业 /高 级 检索 ”和 “查询 式 长 度 ” 丝 可 
ete 明确 。 当 用 户 采 用 “专业 /高 
级 "检索 ,或 者 提交 长 查询 式 时 ,说 明 用 户 的 检索 目的 
非常 明确 ,对 于 检索 的 结果 要 求 较 高 ,因此 下 载 的 可 能 
性 更 低 。 而 当 用 户 采 用 较 短 的 查询 式 时 ,他 们 的 兴 
在 于 了 解 领域 内 的 发 展 态势 ,需要 获取 大 量 文献 ,从 而 
更 可 能 产生 下 载 行 为 。 根 据 实验 的 结果 来 看 ( 见 图 6 
(b) 和 6(e)),“ 是 否 采用 专业 /高 级 检索 ”和 “查询 式 
长 度 " 可 作为 分 类 的 重要 特征 。 

“发 表 时 间 ” 反映 了 文献 内 容 的 新 颖 程度 。 实 验 
数据 表明 , 当 发 表 时 间距 离 当 前 查询 日 期 较 近 时 ,用 户 
浏览 后 下 载 的 比例 更 高 ; 当 发 表 时 间距 离 当 前 查询 日 
期 较 远 时 ,用 户 浏 览 后 未 下 载 的 比例 更 高 (图 6(c))。 
说 明科 研 人 员 在 下 载 文献 时 ,倾向 于 选择 近期 发 表 的 
文章 。 因 此 , “发表 时 间 ” 对 于 预测 结果 具有 一 定 的 影 
响 。 

“文献 匹配 度 ” 反 映 了 文献 内 容 与 用 户 信息 需求 
的 匹配 程度 。 如 图 6(d) 所 示 , 在 文献 匹配 度 较 高 的 情 
况 下 ,用 户 浏览 后 下 载 的 比例 更 高 ;而 在 文献 匹配 度 较 
低 的 情况 下 ,用 户 浏览 后 未 下 载 的 比例 更 高 。 用 户 的 
下 载 行为 与 信息 需求 满足 程度 息息相关 ,因此 , “文献 
匹配 度 ” 可 以 作为 分 类 的 重要 特征 之 一 。 实 验 中 还 对 
文献 匹配 度 计算 中 元 数据 相关 检索 字段 的 附加 值 8 的 
最 佳 取 值 进行 了 探索 ,采用 穷 举 法 令 该 值 在 [0,1 |] 之 
间 变 化 , 步 长 为 0.1, 发 现 B 值 对 模型 性 能 影响 其 微 ， 
原因 可 能 是 数据 集中 存在 元 数据 相关 检索 字段 的 记录 
数 较 少 ,导致 基于 内 容 相 关 检 索 字 段 计算 的 文献 匹配 
度 起 主导 作用 。 

低 贡 献 度 特征 中 包括 “来 源 期 刊 "? 和 “引用 量 ” 两 
个 元 数据 特征 ,在 一 定 程度 上 表明 用 户 在 文献 下 载 
决策 中 较 少 关注 来 源 期 刊 的 权威 性 和 文献 引用 量 的 
大 小 。 相 关 人 研究 也 指出 ,在 单 篇 文献 层次 上 ,下 载 量 
和 引用 量 之 间 无 显著 相关 关系 ” 。“ 检 索 字 段 " “是 
否 采 用 精确 匹配 ”“ 是 否 为 题名 ”的 贡献 度 较 低 ,在 
上 述 特 征 的 不 同 取 值 区 间 内 , 正 负 样本 的 占 比 无 显 
著 差异 ( 见 图 6(g) .图 6(h) .图 6(j))。 原 因 可 能 
是 上 述 查 询 式 构 造 特征 在 区 分 查询 意图 类 型 上 存 
在 不 足 , 因 此 未 来 还 需 进 一 步 探 索 查 询 意 图 的 精确 


识别 。 


118 


ChinaXiv 合 作 期 刊 


谢 豪 , 吴 雪 华 , 陈 萝 , 等. 融合 多 维特 征 的 学 术 文献 下 载 行为 预测 研究 []]. 图 书 情报 工作 ,2021 ,65(12) :112 - 121. 
下 载 量 是 否 高 级 /专业 检索 发 表 时 间 文献 匹配 度 查询 式 长 度 
3 1 05 0.7 0.6 
04 乡 08 终 04 9 和 05 
|. 缘 隐 
03 -一 条 - 0.6 下 缘 03 用 乡 知 - |03 一 8 | 04 国 净 
02 和 乡 乡 0.4 和 和 0.2 和 02 了 和 
和 | 条 |: 和 ‘村 | E02 
a el sse a 
交 5 0 和 乡 0 经 作 所 务 RS SO 区 Cea 0 罗 络 乡 
[027] (27,95] (95,+%) 高 级 /专业 检索 非 高 级 /专业 检索 (012 (345 678 tm SN 8 © [03] (36] (6,%) 
m 浏 览 后 下 载 “浏览 后 未 下 载 sa 浏览 后 下 载 * 浏览 后 未 下 载 昌 刘 览 后 下 载 * 浏 览 后 未 下 载 ms 浏览 后 下 载 * 浏 览 后 未 下 载 ea 浏览 后 下 载 * 浏览 后 未 下 载 
QQ 国 © 由 加 
来 源 期 乔 检索 字段 是 否 精确 匹配 被 引 量 是 否 为 题名 
0.8 2 1 12 03 a i 
0.7 用 比 . 乡 
08 乡 1 06 用- 本 
0 06 ， 08 乡 05 是 jh 缘 
04 乡 | 和 06 乡 04 0.6 
03 2 和 04 玫 02 量 04 和 
Dy 和 短 0 0 3 RSENSENRESIE 人 
核心 。 非 核心 是 否 是 否 SESE 题名 。 非 题名 
"浏览 后 下 载 * 浏 览 后 未 下 载 sa 浏览 后 下 载 * 浏 览 后 未 下 载 se 浏览 后 下 载 * 浏 览 后 未 下 载 = 浏览 后 下 载 < 浏览 后 未 下 载 es 浏览 后 下 载 。 浏 览 后 未 下 载 
四 @ Q 0) 
™ 
| 6 ”查询 相关 性 特征 不 同 取 值 区 间 内 正 负 样本 占 比 分 布 
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合 丛 类 器 能 提升 分 类 效果 ;基于 用 户 行为 的 子 分 类 相 

基于 查询 相关 性 的 子 分 类 器 占有 更 高 权重 ;下 载 
量 世 是 否 采用 专业 /高 级 检索 ”和 ”发表 时 间 ” 是 影响 
用 六 下 载 行为 的 重要 因素 。 笔 者 提出 的 融合 多 维特 征 
的 学术 文献 下 载 行为 预测 模型 取得 了 良好 的 效果 , 实 
际 应 用 时 可 作为 学 术 检 索 系 统 重 排序 模块 的 组 成 部 
分 :在 检索 系统 根据 用 户 查 询 式 返回 相关 文献 集合 后 ， 
该 模型 基于 用 户 行为 数据 和 文献 数据 提取 相应 特征 ， 
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位 置 ,从 而 提高 科研 用 户 学 术 检 索 效率 。 

本 文 存在 以 下 不 足 :@ 仅 用 查询 式 特征 间接 反映 
查询 意图 ,未 构建 查询 意图 识别 模型 来 明晰 科研 用 户 
的 检索 需求 ,未 来 可 考虑 构建 查询 意图 识别 模型 并 与 
下 载 预测 模型 相 结合 ;@ 由 于 数据 集 的 局 限 性 ,无 法 区 
分 机 构 用 户 中 的 个 体 科 研 用 户 , 因 此 未 引入 会 话 分 析 。 
在 未 来 研究 中 将 引入 会 话 序列 ,分 析 用 户 在 学 术 检 索 
过 程 中 内 容 偏好 和 行为 偏好 的 时 序 演化 ,从 而 对 学 术 
文献 下 载 行为 预测 模型 进行 改进 和 创新 。 
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Predicting Download Behavior of Academic Literature Based on Multi-dimensional Features 
Xie Hao Wu Xuehua Chen Xi Tang Jing Bai Yun Mao Jin 
Center for Studies of Information Resources, Wuhan University, Wuhan 430072 
Abstract: | Purpose/ significance | The behavior of academic literature downloading is an essential step in the 
process of academic retrieval. Predicting download behavior of academic literature is conducive to the in-depth under- 
standing of the retrieval behavior of researchers, and provides a basis for optimizing retrieval results of academic re- 
source retrieval platforms and restructuring ranking, to improve the retrieval function and service quality of retrieval 
system. | Method/process | This paper constructed a multi-dimensional feature system of researchers ” academic lit- 
erature download behavior, and proposed two sub-classifiers based on query relevance and user behavior respectively 
relying on machine learning algorithms. A weighted strategy was adopted to construct a hybrid model of download be- 
havior prediction of academic literature. | Result/conclusion | The experiment results show that the Random Forest 
algorithm achieves the best performance in both classifiers. Compared to the model trained with only query relevance 
features, the accuracy of the hybrid model is increased by 2.3% , and the Fl value is increased by 1.3%. The sub- 
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setassifiers based on user behavior have higher weights in the hybrid model. “ downloads” “ whether professional/ad- 
去 published time” make a significant contribution to the academic literature download pre- 


= . 
Tdiction task. 
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